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ROBERT BOSCH GMBH, 70442 Stuttgart 

Verfahren zur Codierung oder Decodieruna von 
Sprachsicmalabtastwerten sowie Coder bzw. Decoder 

Zusanmienf assung 

Zur Codierung oder Decodierixng von Sprachsignalabtastwerten 
werden die in den Codebuchem/Codetabellen enthaltenen 
Werte zur Generierung der Sprachsignalparameter in 
quantisierter Form abgelegt . 

Ohne Verschlechterung der Sprachqualitat kann die 
Verarbeitung mit Prozessoren mit Ganzahlverarbeitung 
durchgef uhrt werden. 



Fig. 1 
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quant isierter Form in den entsprechenden Cod^biichern/ 
Tabellen abgelegt warden. 

11. Verfahren nach einem der Anspruche 1 bis 7, dadurch 
gekennzeichnet , daS fur einen CELP (Code Excited Linear 
Prediction) - Sprachcoder/ -decoder die Werte fur die LSP 
(Line Spectral Pairs ) -VQ-Vektorquant isierungs -Codebuch- / 
Tabelleneintrage sowie die der Gain-VQ Tabelleneintrage in 
quantisierter Form abgelegt werden. 

12 . Coder oder Decoder fur die Verarbeitung von 
Sprachsignalabtastwerten unter Verwendung der Analyse durch 
Synthese - Methode mit folgenden MaSnahmen: 

die in den Codebuchern/Codetabellen (4,5,9,10,11,12,25,26) 
enthaltenen Werte zur Generierung der Sprachsignalparameter 
sind in quantisierter Form abgelegt, wpbei die Wortbreite so 
gewahlt ist, daS keine merklichen Verluste der 
Sprachqualitat auftreten. 
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Faktor kleiner als Eins, vorzugsweise 0,5, vorgenommen wird 
und daS diese Multiplication so oft wiederholt wird, bis 
alle Elemente im Wertebereich liegen. 

5. Verfahren nach Anspruch 4, dadurch gekennzeichnet , daE 
die Anzahl der wiederholten Multiplikationen als 
Skalierfaktor fur alle Codebuch-/ Tabelleneintrage verwendet 
wird. 




6. Verfahren nach Anspruch 5, dadurch gekennzeichnet, daE 
eine Skalierung der Codebuch-/ Tabelleneintrage auf die Bits 
des erforderlichen Wertebereiches vorgenommen wird. 



7. Verfahren nach Anspruch 6, dadurch gekennzeichnet, dafi 
fur eine endgultige Quantisierung eine Rvmdung und eine 
nachfolgende Abschneidung von Nachkommastellen erfolgt. 

8. Verfahren nach einem der Anspruche 1-7, dadurch 
gekennzeichnet, daS die Wortbreite der quant isierten Werte 
zu 16 Bit gewahlt wird. 

9. Verfahren nach einem der Anspruche 1 bis 8, dadurch 
gekennzeichnet, daS die Verarbeitung der quantisierten 
Codebuch-/ Tabelleneintrage mittels digitaler 

Signal verarbeitung im Ganzzahl format vorgenommen wird. 

10. Verfahren nach einem aer Anspruche jl bis daduiuh 
gekennzeichnet, daS fur einen HVXC (Harmonic Vector 
Excitation Coding) - Sprachcoder/ Sprachdecoder die LPC- 
Koef f izienten, die spektralen Einhullenden des Sprachsignal 
und der stimmlosen Abschnitte des Sprachsignals in 
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ROBERT BOSCH GMBH, 7 0442 Stuttgart 
Anspruche 

10 1. Verfahren zur Codierxing oder Decodierung von 

Sprachsignalabtastwerten insbesondere unter Verwendung der 
Analyse durch Synthese - Methode mit folgenden Schritten: 

- die fur die Generierung der Sprachsignalparameter 
verwendeten zuvor aus den Sprachsignalabtastwerten 

15 analysierten Werte werden vor ihrer Abspeicherung in 

Codebuchern/Codetabellen quantisiert, 

- die Quantisierung der Werte erfolgt auf eine Wortbreite, 
die zu keinen merklichen Verlusten der Sprachqualitat f uhrt , 



2. Verfahren nach Anspruch 1, dadurch gekennzeichnet , da£ 
die Wortbreiten der in den Codebuchern/Codetabellen 
abgelegten Werte durch Hortests ermittelt werden. 



3. Verfahren nach Anspruch 1 oder 2, dadurch gekennzeichnet , 

2 5 dafi die Werte eines jeden Codebuches/ einer jeden 

Codetabelle so skaliert werden, dafi der zur Verfugung 
st e hende WcrtcbGrQich mocrlichst komplett ausgenutzt wird , 

4. Verfahren nach Anspruch 3, dadurch gekennzeichnet, daS 

3 0 zur Skalierung das Maximum der positiven und negativen Werte 

eines jeden Codebuchs/ Codetabelle ermittelt wird, dafi im 
Falle des Uberschreitens des zur Verfugung stehenden 
Wertebereiches eine Multiplikation der Werte mit einem 
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Unterrahmen die Interpolation - Baugruppe 28 - zwischen den 
LSP-Parametern des vergangenen und des aktuellen Rahmens. 
Die in LPC- Parameter umgewandelten LSP- Parameter gehen als 
Koef f izienten in das LPC-Synthesef ilter 29 ein. Dort erfolgt 
5 die Rekonstruktion der Sprachdaten durch Filterung des 

Erregungssignals . Zur Verbesserxing der Sprachqualitat kann 
das rekonstruierte Sprachsignal noch in einem Postfilter 30 
gefiltert werden. 

Die LSP-VQ-Tabellenwerte sowie die Gain-VQ-Tabellenwerte fur 
die Codebucher 25 und 26, die zuvor aus den 
Sprachsignalabtastwerten analysiert wurden, liegen 
normalerweise in einer Gleitkommadarstellxing vor, die wie 
zuvor erlautert fur eine Fixpunkt-DSP Verarbeitung nicht 

15 geeignet ist. Es erfolgt aus den gleichen Grunden wie beim 

HVXC-Decoder (Fig. 1) eine Umwandliing der Tabellenwerte in 
eine quantisierte Form. Die Verf ahrensschritte bei dieser 
Quantisierung wie insbesondere die Ermittlung des 
Wertebereichs fur die Codebucher erfolgt wie bei der zuvor 

2 0 erlauterten Quantisierung. 



Die bisherigen Ausfuhrungsbeispiele der Erfindung wurden 
anhand von Sprachdecodern erlautert. Naturlich kann die 
Erfindung auch bei entsprechenden Codern (Encodern) 
2 5 eingesetzt werden, die Codebucher verwenden. Auch dort 

konnen die Codebucheintrage fur die Aufbereitung von 
Spachsignalen fur die Ubertragiing zuvor quant isiert werden. 
Beispiele von solchen Encodern, deren Codebucheintrage zuvor 
quantisiert werden konnen sind aus EP 0545 386 A2 , US 
30 5,208,862, US 5,487,128, US 5,199,076 Oder US 5,261,027 

bekannt . 



L 




8 - 



R. 34664 



Eine weitere Ausgestaltimg der Erfindung wird in 
Zusammenhang mit Fig. 2 erlautert. Dort ist das 
Blockschaltbild eines CELP-Decoders dargestellt. 
Ziinachst werden die zur Decodierung eines Rahmens 
notwendigen Elemente wie zuvor aus einem ubertragenen 
Bitstrom gelesen. Dabei handelt es sich um die LPC Indizes, 
die Erregungsparameter (Lag und Shape Index) sowie die 
Amplituden Indizes (Gain Indices) . Angeliefert werden diese 
Parameter (Elemente) an den Decodereingangen 17 bis 21. Die 
Erregungsparameter setzen sich aus den Parametern fur das 
adaptive Codebuch (Lag) 22 zur Generierung periodischer 
Signalkomponenten (stimmhaft) und den Parametern fur die 
festen Codebucher (Shape Index) 23a ....23n zusammen. 



15 Die Eintrage der festen Codebucher 23a ...23n und des 

adapt iven Codebuchs 22 werden jewel Is mit einem 
Skalierungsf aktor (Gain) uber den Gain-Decoder 24 
multipliziert . Dieser Skalierungsf aktor wird unter 
Zuhilfenahme der Gain Indizes, die am Eingang 21 anliegen, 
20 und der Gain-VQ (Vektorquantisierung) -Tabellen, die in den 

[ Codebuchern 25 abgelegtsind, rekonstruiert , Der endgiiltige 

Erregungsvektor setzt sich aus der Summe der festen und des 
adaptiven Codebuchvektors zusammesn. 

25 Bei der Nutziing des Vektorquantisieres VQ reprasentieren die 

LPC- Indizes die vektorquantisierten LSP- Parameter (Line 

Spectral Pairs). Die Vektoren der ersten und zweiten Stufe 
der inversen Vektorquantisierung der LSP-Parameter erhalt 
man durch Auslesen der LSP-VQ-Tabellenwerte, die in den 

30 Codebuchern 26 abgespeichert sind. Die endcpdltige 

Rekonstruktion der LPC-Parameter erfolgt im LPC- Parameter- 
Decoder 27. Innerhalb eines jeden Rahmens erfolgt fur jeden 
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Nach diesem Schritt liegen die Eintrage von jedem Kodebuch 

_ I < ^ < A _ 2~(*^"'^^"^'*"'> ) 
im folgenden Wertebereich : — n—\ I ^ ^^it 

0<rt <m . 

3. ) Skalierung auf wordlength Bits. 

Zur Skalierung auf den erf orderlichen Wertebereich, erfolgt 

2wordlength-\ . - , ^ . -, 

^JL^^ . Damit liegen die Werte der 

Q ^ wordlength-\ q wordlength-l -i 

Kodebucher " im Bereich zwischen und ^ . 

4 . ) Runden 

Bevor die Nachkommastellen abgeschnitten werden, erfolgt die 
Riindiing der ermittelten Eintrage. Dazu wird in Abhangigkeit 
des Vorzeichens +0,5 bzw. -0,5 addiert . Dieses geschieht in 
der folgenden Form: 
c >0 d =c +0,5 

c<0 ci„=c„-0,5 

Hierbei ist zu beachten, da£ der maximal zulassige 
Wertebereich nicht uberschritten wird. Dieser liegt in dem 
Bereich, wie xinter 2.) angegeben. 

5. ) Abtrennen der Nachkommastellen 

Die endgultige Quant isierung erfolgt durch das Abtrennen der 
Nachkommastellen. Damit erhalt man die quantisierten Werte. 



25 



Versuche haben gezeigt, daS mit der Festlegung der Variablen 
wordlength auf 16 eine vom Original nicht zu unterscheidende 
Sprachqualitat erhalten wird. 
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{{a„ e c6|a > O}) . {{a„ e cb\a^ < O}) 

rV^ " ' " V bzw. max necr = minV^ ' " v 



max^os = maxV^ " ' " / bzw. max_neg = min^ 
mit 0<rt</w. 

In Abhangigkeit der GroSe von max _pos bzw. max_neg, ergeben 
sich die f olgenden Schritte : 

(1 — y-{yvordlengih-\) \ 
. / Oder max_neg < -1 

max^pos und max_neg werden mit M multipliziert. Erfullt das 
Resultat immer noch die unter (a) gestellte Bedingung, dann 
muS der Vorgang wiederholt werden, bis die Bedingung nicht 
mehr zutrifft. Die Anzahl der Multiplikationen mit M wird 
gezahlt und in der Variablen scale abgelegt. 

fl — 2 >«)rt//e«g//i-l ) \ 

max_pos ^ V ^ / oder max^neg — -1 

max_pos und max^neg werden mit 2 multipliziert. Erfullt das 
Resultat immer noch die unter (b) gestellte Bedingung, dann 
15 muS der Vorgang wiederholt werden, bis die Bedingiing nicht 

mehr zutrifft. Die Anzahl der Multiplikationen mit 2 wird 
gezahlt \ind in der Variablen scale abgelegt. 

2.) Skalierung der Elemente von ch auf den Bereich zwischen 

(1 ^ -(wordlength~\) \ 
- ^ ^ /. 

In Abhangigkeit der unter 1 . ) getrof f enen Entscheidung 
erfolgt die Skalierung aller Kodebucheintrage auf den 
genannten Bereich: 

M ^ scale n n f\ ^ ^ 

2 mit 0<n<m 



25 
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die einzelnen Tabellenwerte warden in verschiedenen Hortests 
ermittelt. 

Die Quant is iervmg erfolgt auf eine Wortbreite, die in 
verschiedenen Tests ermittelt wird. In der folgenden 
Darstellimg wird diese Wortbreite allgemein mit wordlength 
bezeichnet. Diese GroSe wird in Bits ausgedruckt . 
Eine vorzeichenbehaf tete ganze Zahl mit wordlength Bits 

2wordIengfh-\ q wordlength-\ i 

Die Quant isieriang der Kodebucher erfolgt damit auf die 
nachfolgend gezeigte Art. Den Ausgangspunkt stellen die in 
„study on ISO/IEC 14496-3 FCD, Subpart 3" , definierten 
Kodebucher dar. Das Kodebuch cJb wird fur dieses Dokument wie 

folgt definiert: cb ^ {a,,a,,...,a„,...,aj ^.^ 0<«<mund ^" ^ ^ . 
15 zur Quantisierung der einzelnen Elemente sind die folgenden 

Schritte erf orderlich : 

1.) Ermittlung des Wertebereichs der Kodebucher 
Um eine gut angepafite Quantisierung zu erhalten, werden die 
20 Elemente eines jeden Kodebuchs so skaliert, daS der zur 

Verfugung stehende Wertebereich moglichst komplett 
ausgenutzt wird. Dazu mufi der Wertebereich der Elemente 
zwischen 





2wordIength-\ ^ wordlengtft-l _ i 
1 ^ ^ 1 ^ -( wordIenefh-\ ) 



2wordlength-\ ^ wontJength- 

und ^ 



liegen. Um dies zu erreichen, wird das Maximum der positiven 
und der negativen Elemente (max jpos bzw. max^uBg) eines 
jeden Kodebuchs ermittelt. Diese ergeben sich aus 
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gegebenenfalls die Interpolation - Baugruppe 6 - zwischen 
den LSP-Parametern des vergangenen und aktuellen Rahmens, 
womit eine Aktualisierimg dieser Werte in einem Raster von 
2,5 ms erreicht wird. Im AnschluS daran erfolgt die 
5 Umwandlung in LPC- Parameter , die als Koef f izienten in das 

LPC-Synthesef ilter - Baugruppen 7 und 8 - eingehen. 

Parallel zu dieser Berechnung und in Abhangigkeit der 
stimmhaf t/stimmlos-Entscheidung werden die Vektoren fur die 
^^^^ spektrale Einhullende (stimmhaf ter Rahmen) , AM-Codebucher 9 

^^^P (CbAm) und 10 {CbAm4) bzw, die Vektoren fur das 

stochastische Anregungs signal (stimmloser Rahmen, CELP- 
Codebucher 11 (CbCelp) und 12 {CbCelp4) ) gelesen. Die 
Regenerieriang der spektralen Einhullenden und des 
15 Anregungs signals erfolgt mit den inversen 

Vektorquantisierern 13 und 14. Nach der harmonischen 
Synthese (stimmhaft) - Baugruppe 15 - erfolgt die Filterung 
der Sprachdaten im LPC-Synthesef ilter . Die Ausgangsdaten aus 
dem stimmhaf ten - Baugruppe 7 - und dem stimmlosen - 
2 0 Baugruppe 8 - Synthesef ilter werden abschlieSend addiert, 

1^ womit das rekonstruierte Sprachsignal fur einen Rahmen von 

20 ms vorliegt. 



Da sich, wie zuvor erlautert, Werte fur die Codebiicher in 
25 Gleitkommadarstellung nicht fur 

Fixpunkt-DSPs eignen, weil die erf orderlichen Wortbreiten 

zu groS waren (Speicherbedarf , interne Wortbreiten und 
Arithmetik, ROM) , erfolgt die Umsetzung der Tabellenwerte 
fur die Codebucher, die zuvor aus den 
30 sprachsignalabtastwerten analysiert wurden, in eine 

quantisierte Form bei resultierender aquivalenter 
Sprachqualitat . Die hierfur erf orderlichen Wortbreiten fur 
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betrachtliche Einsparung von Speicherkapazitat , insbesondere 
in Form von ROMs moglich. Die Erfindiing ist bei 
unterschiedlichen Sprachsignalcodierverf ahren einsetzbar, 
beispielsweise fur HVXC- Coder /Decoder oder CELP- 
Coder/Decoder . 

Ze i chnungen 

Anband der Zeichnungen werden Ausfuhrungsbeispiele der 
Erfindiong naher erlautert. Es zeigen 
Fig.l ein vereinf achtes Blockschaltbild eines HVXC- 
Sprachdecoders , 

Fig. 2 ein vereinf achtes Blockschaltbild eines CELP- 
Sprachdecoders . 

Beschreibiing von Ausf uhrungsbeispielen 



Bevor auf die eigentliche Quant is ieruing eingegangen wird, 
wird zunachst ein Sprachdecoder vorgestellt, bei dem die 

2 0 erf indungsgemaSe Quant isierung eingesetzt wird. 

Bei dem HVXC- Sprachdecoder nach Fig.l werden die 
ubertragenen Sprachparameter , namlich die LPC- Parameter , die 
stimmhaf t/stimmlos-Entscheidung des Encoders und die 
Anreg\ingsparameter, die in einem Ubertragungsrahmen von 20 
25 ms Dauer untergebracht sind, aus dem Bitstrom gelesen und 

als Einqanqssignale an den Eingangen 1, 2 und 3 angeliefert. 

Die LPC-Parameter enthalten Indizes, aus denen der inverse 
LSP-Vektorquantisierer 16 die LSP- Parameter (Line Spectral 
Pairs) regeneriert . Dazu werden die LSP-Codebucher 4 (CbLsp) 

3 0 und 5 (CbLsp4) mit den LPC-Parametern indiziert und die LSP- 

Parameter ausgelesen. In Abhangigkeit der 

stimmhaf t/stimmlos-Entscheidung dieses Rahmens erfolgt 
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Zur Codierung solcher Sprachsignale wird haufig die ^Analyse 
durch Synthese'' -Methode verwendet (ANT 

Nachrichtentechnische Berichte Heft 5, Nov, 1988, Seiten 93 
bis 105) . Bei den erwahnten Sprachcodierverf ahren werden in 
Codebuchern, d.h. in den Tabellen, Werte abgespeichert , die 
fur die Generierung der Signalparameter und damit fur die 
Koef f izienten der Sprachsynthesef ilter verwendet werden. 
Uber eine Indexsteuerung werden die in den Codebuchern 
abgespeicherten Werte ausgelesen. 

Vorteile der Erfindung 



Durch die MaSnahmen des Anspruchs 1, d.h. insbesondere durch 
die Quant isieriong der Werte in den Codebuchern, werden die 
15 vorliegenden Daten in ihrer Genauigkeit (Quantisierung) 

beschrankt, so daE die Codebucheintrage mit einer endlichen 
Wortbreite dargestellt werden konnen. Somit kann ihre 
Portierung auf digitale Signalprozessoren mit 
Ganzzahlarithmetik erfolgen, ohne die durch Standards, 
20 insbesondere gemaE ISO/IEC 14496-3, vorgegebenen 

Qualitatsanf orderungen zu verletzen. Im Gegensatz zur 
Erfindung liegen in den erwahnten Arbeitsversionen der 
Standards die Werte fur die Codebucher unquantisiert im 
Gleitkommaf ormat vor und konnen nur mit sehr aufwendigen und 

2 5 speicherintensiven Verf ahren direkt verarbeitet werden. 
Trotz der Genauigkeitsbeschrankung der Tabellenwerte ist bei 

der Erfindung eine gleiche subjektive Qualitat nach der 
Sprachdecodieriong zu erzielen. Mit den MaSnahmen der 
Erfindung ist eine leichte lond standardkonf orme Portier\ing 

3 0 des Codes auf unterschiedliche Rechnerplattf ormen moglich, 

ohne BeeinfluSung der subjektiven Qualitat des Coders. Da 
reduzierte Wortbreiten verwendet werden, ist eine 
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06.10.98 Sk/Hy 

ROBERT BOSCH GMBH, 70442 Stuttgart 



Verfahren zur Codierung oder Decodienina von 
10 Sprachsicmalabtastwerten sowie Coder bzw. Decoder 



Stand der Technik 



Die Erf indiing geht aus von einem Verfahren zur Codierung 
15 Oder Decodierung von Sprachsignalabtastwerten . 

Im Standard zur Codierung Audiovisueller Objekte nach MPEG- 4 
sind in ISO/IEC 14496-3 FCD, Subpart 2 parametrische Coder 
beschrieben, insbesondere der HVXC-Coder (Harmonic Vector 
2 0 Excitation Coding) zur Codierung von Sprache bei extrem 

niedrigen Bitraten. Dieser Standard enthalt zur Generierung 
der LPC-Kbef f izienten, der spektralen Einhullenden des 
Srachsignals und der stimmlosen Abschnitte mehrere Tabellen, 
die im Gleitkommaf ormat vorliegen. 



Im Subpart 3 dieses Standards wird der CELP-Coder (Code 
Kyr!it-g:^d Linear Prediction) zur Codierung von Sprache bei 



mittleren bis niedrigen Bitraten beschrieben. Dieser 
Standard enthalt zur Generierung der LPC-Kbef f izienten und 
30 der Gain-Werte mehrere Tabellen, die im Gleitkommaf ormat 

vorliegen . 
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